数据管理
两大核心支柱: 数据治理(Data Governance) 和数据建模(Data Modeling);
二者协同作用,确保数据高质量、可复用、可管控。
一、数据治理
关键词:数据标准、数据质量、数据安全、数据生命周期
1.1 定义
数据治理 就是给数据制定一套“管理规则”,让数据变得准确、好用、安全,最终帮助企业赚钱。
数据治理是指对组织内部数据的管理和控制策略,它涉及数据的质量、完整性、保护、隐私、合规性等各个方面
解决的核心问题包括:数据不准(统一标准)、数据难用(建立目录和血缘,方便查找和复用)、数据风险(权限和合规检查)
核心目标是:
- 数据可信:解决“数据不准、不可用”问题
- 数据合规:满足GDPR、CCPA等法律要求
- 数据价值:通过数据资产化支撑业务决策
1.2 数据治理框架
(DAMA-DMBOK)
DAMA-DMBOK(Data Management Association - Data Management Body of Knowledge),数据管理知识体系指南)是由国际数据管理协会(DAMA)发布的权威框架,系统定义了数据管理的10大职能领域和5大基本原则。
数据治理需要覆盖以下10大职能领域:
数据服务:提供API、数据集等数据共享能力
1.3 数据治理的挑战
数据孤岛:不同部门或系统的数据不连贯,难以统一管理。
合规风险:不遵守法律法规可能导致重大合规风险。
数据的动态变化:数据的快速变化导致治理难度增加。
1.4 主要组成部分
数据质量管理:确保数据是准确、完整、一致的。数据质量管理通常包括数据清洗、数据校验和标准化等过程。
数据安全和隐私:保护数据免受未经授权的访问,确保合规性(如GDPR、CCPA等法规)。这包括数据加密、访问控制和审计等措施。
数据合规性:确保数据的收集、存储和使用符合相关的法律法规要求。例如,遵守隐私政策和数据保护法。
数据生命周期管理:从数据创建、存储、使用到废弃的整个过程中,确保数据得到有效管理。
角色和责任:明确数据治理中的职责分配,如数据拥有者、数据管理员和数据消费者等。
1.5 实施步骤
顶层设计
成立数据治理委员会:CTO、业务部门、法务等共同决策
指定数据战略:明确治理范围(先什么后什么)标准和制度
数据标准:定义字段命名规则、编码规范(如性别用M/F)
数据质量规则:例如(订单金额必须大于0,手机号必须11位)工具落地
元数据管理:Apache Atlas、DataHub
数据质量工具:Great Expectations、Deequ
主数据工具:Information MDM、IBM InfoSphere持续运营
数据质量监控
数据资产目录
二、数据建模
2.1 定义
数据建模是将现实世界的业务需求、实体及其关系,通过结构化方式表示成计算机可处理的数据模型的过程。
本质上是现实世界到数据世界的”翻译”,是数据管理系统的设计基础。
2.2 主流建模方法论
2.2.1 规范化建模(关系型)
遵循关系数据库范式(1NF/2NF/3NF…)
优点:减少冗余、保证数据一致性
局限:可能影响查询性能- 适合:OLTP系统(如交易系统)
建模过程:实体和关系的定义
2.2.2 维度建模(数据仓库)
星型模式/雪花模式
事实表+维度表
优点:易于OLAP分析,优化查询性能
适合:BI系统、数据报表
2.2.3 面向文档建模
嵌套结构/文档集合
灵活Schema- 优点:快速开发,适合非结构化数据
适合:MongoDB等文档数据库
2.2.4 图数据建模
节点+边的设计
属性图/三元组
优点:高效处理复杂关系
适合:Neo4j等图数据库,社交关系分析
2.2.5 时序数据建模
时间序列优化存储
压缩算法
适合:IoT、监控数据
2.3 数据建模的输出物
可视化模型图(ER图/类图等)
数据字典(元数据定义)
业务规则文档
技术规范文档(如建表语句)
主数据/参考数据标准
2.4 现代数据建模趋势
自顶向下+自底向上结合
DataOps:建模流程自动化
敏捷建模:迭代式快速建模
多模型:同一系统混合使用多种建模方法
机器学习:智能辅助建模(如基于代码推断模型)
业务数据的抽象和结构化表达
- 最直观的问题? 工作中遇到的, 怎么解决的?
- 数据同学分别都在做什么? 日常数据生产??